#!/bin/bash
#SBATCH -p gpu
#SBATCH -N 1
#SBATCH -n 1

# 用于分割dpp4的csv文件
input_file="/data/home/sczc342/run/dpp4/DPP-IV_RAQ.csv"
output_20="/data/home/sczc342/run/dpp4/DPP-IV_test_20.csv"
output_80="/data/home/sczc342/run/dpp4/DPP-IV_test_80.csv"


# 获取总行数
total_lines=$(wc -l < "$input_file")

# 计算20%的行数
lines_20=$((total_lines * 20 / 100))

# 生成随机行号（20%的行）
shuf -i 1-"$total_lines" -n "$lines_20" | sort -n > temp_lines.txt

# 根据行号提取行到对应文件
while IFS= read -r line_num; do
    sed -n "${line_num}p" "$input_file" >> "$output_20"
done < temp_lines.txt
echo "20分割完成"
# 提取剩余的80%行到另一个文件
while IFS= read -r line_num; do
    grep -v -F -f "$output_20" "$input_file" > "$output_80"
done < temp_lines.txt
echo "80分割完成"
# 清理临时文件
rm temp_lines.txt

# 显示结果
echo "分割完成："
echo "20%的行数：$(wc -l < "$output_20")"
echo "80%的行数：$(wc -l < "$output_80")"